12. 多項分布による分析
https://gyazo.com/4f7dfd91756d579cff6ea820ee6ff329
12.1 多項分布
無作為に選んだ1人の血液型がA型、B型、O型、AB型である確率が、それぞれ$ p_1, p_2, p_3, p_4であるとする
A型がひとり観察される確率は(11.6)式を拡張して次のように表現できる
$ f(A型|p_1, p_2, p_3, p_4)= p_1^1p_2^0p_3^0p_4^0 = p_1 \qquad (12.1)
独立に抽出した10人を継時的に観察し、その結果が
$ (A, B, A, O, B, A, AB, B, A, O) \qquad (12.2)
の順に並ぶ確率は(11.8)式からのアナロジーで
$ p_1 \times p_2 \times p_1, \times p_3 \times p_2, \times p_1 \times p_4 \times p_2 \times p_1 \times p_3 = p_1^4p_2^3p_3^2p_4^1
A型、B型、O型、AB型の人が、それぞれ4人、3人、2人、1人抽出されたとき、血液型だけに着目した並び方は(11.3)式により$ 12600通りあった
(12.2)式はそのなかのたった1つに過ぎない
ならば、カウントされた人数$ \bm x = (4人, 3人, 2人, 1人)が観察される確率は
$ f(\bm x|p_1, p_2, p_3, p_4) = \frac{10!}{4! \times 3! \times 2! \times1!}p_1^4p_2^3p_3^2p_4^1 \qquad (12.3)
以上のことを一般化する
各試行の結果が$ k種類の値をとり、それぞれが観察される確率が$ \bm p = (p_1, \cdots, p_k)であるとする
$ n回の独立した試行が行われたとき、$ k種類の値が出現した数$ \bm x = (x_1, \cdots, x_k)が観察される確率は、並び順の場合の数である(11.4)式を利用して
$ f(\bm x|\bm p) = \frac{n!}{x1! \times \cdots \times x_k!}p_1^{x_1}\times \cdots p_k^{x_k} \qquad (12.4)
$ n = x_1 + \cdots + x_k \qquad (12.5)
$ 1 = p_1 + \cdots + p_k \qquad (12.6)
と導かれる
12.2. 比率の推測(1つの多項分布)
ペット問題
初めて飼ったペットの種類が質問された
table: 表12-1 初めて飼ったペット(人数)
カテゴリー 犬 猫 魚 鳥 その他 計
人数 32 29 18 15 10 104
母比率を推測せよ
(2.12)式に相当する尤度としては多項分布(12.4)式を利用する
事前分布としては、確率の定義域に対する一様分布を利用する
ただし(12.6)式の制約を反映させる必要がある
まず$ i番目のカテゴリの仮の確率の事前分布を
$ \ddot{p}_i \sim U(0, 1) \qquad (12.7)
とし($ \ddot \bm p = (\ddot p_1, \cdots, \ddot p_k))、
$ p_i = \frac{\ddot p_i}{\ddot p_1 + \cdots + \ddot p_k} \qquad (12.8)
のように和が$ 1となる母数$ \bm p = (p_1, \cdots, p_k)を構成する
一様分布は定数だから
$ f(\bm p) = f(\ddot \bm p) = f(\ddot p_1) \times \cdots f(\ddot p_k) \qquad (12.9)
であり、(2.15)式に相当する事後分布を導く
$ f(\bm p|\bm x) \propto f(\bm x|\bm p)f(\bm p) \qquad (12.10)
MCMC法を利用して、事後分布・生成量・予測分布に従う乱数を生成することが可能となる
table: 表12-2 「ペット問題」の比率の事後分布
EAP post.sd 2.5% 5% 50% 95% 97.5%
p_1 0.303 0.044 0.220 0.233 0.302 0.377 0.392
p_2 0.275 0.043 0.196 0.207 0.274 0.348 0.363
p_3 0.174 0.036 0.109 0.118 0.172 0.237 0.251
p_4 0.147 0.034 0.087 0.095 0.145 0.206 0.219
p_5 0.101 0.029 0.052 0.058 0.098 0.152 0.164
たとえば「犬」のEAP推定値$ 0.303は標本比率$ 0.308(=32/104)より若干小さい
「その他」のEAP推定値($ 0.101)は標本比率$ 0.096(=10/104)より若干大きい
12.2.1. カテゴリ間の比較
「研究仮説$ U_{p_j<p_i}: $ p_iは$ p_jよりも大きい」が正しい確率$ p(p_i>p_j)は以下の生成量のEAPで評価する
$ u_{p_i>p_j}^{(t)} = \begin{cases} 1 & p_i^{(t)} > p_j^{(t)} \\ 0 & それ以外の場合\end{cases} \qquad (12.11)
table: 12-3 行iのカテゴリの確率が列jのカテゴリの確率より大きい確率
カテゴリ p_1 p_2 p_3 p_4 p_5
p_1(犬) 0.000 0.648 0.975 0.993 1.000
p_2(猫) 0.352 0.000 0.944 0.982 0.999
p_3(魚) 0.025 0.056 0.000 0.696 0.931
p_4(鳥) 0.007 0.018 0.304 0.000 0.835
p_5(その他) 0.000 0.001 0.069 0.165 0.000
たとえば$ p(p_1 > p_2) = 0.648であり、「猫」よりも「犬」の比率のほうが大きいことに64.8%の確信を持てる
また$ p(p_1)p_3=0.975であり、「魚」よりも「犬」の比率の方が大きいことに97.5%の確信を持てる
12.2.2. 連言命題が正しい確率
表12-3は、2つのカテゴリの確率の比率の確率としてはそのまま解釈可能
ただし、複数の比較が同時に成り立つ確率とは異なる
たとえば研究上の問い「『犬』『猫』『魚』『鳥』の順に比率が高い」が正しい確率を求める
このRQ.が真のときには$ 1を、偽のときには$ 0をとる生成量
$ u_{p_1>p_2}^{(t)} \times u_{p_2>p_3}^{(t)} \times u_{p_3>p_4}^{(t)} \qquad (12.12)
のEAPが求めたい確率となる。
確率は$ 0.400になった
この確率は、積を計算する前の生成量のEAPの最小値$ 0.648を上回らない
制約を緩めて研究上の問い「『犬』や『猫』は『魚』や『鳥』より比率が高い」が正しい確率を求める
このRQ.が真のときには$ 1を、偽のときには$ 0をとる生成量
$ u_{p_1>p_3}^{(t)} \times u_{p_2>p_3}^{(t)} \times u_{p_1>p_4}^{(t)} \times u_{p_2>p_4}^{(t)} \qquad (12.13)
のEAPが求めたい確率となる
確率は$ 0.911になった
この確率は、積を計算する前の生成量のEAPの最小値$ 0.944を上回らない
12.3. 対応ある2×2のクロス表の推測
1つの標本から2回の測定が行われたカウントデータを分析するための多項分布モデルを学ぶ
対応ある2×2のクロス表の推測を行う
このクロス表は一見すると表11-3に似ている
しかし、表11-3が男女別に集計されているのに対して、表12-4は男女こみにした$ n=200人のデータを集計している
この場合は1人の回答者に2つの質問をしているから賛否に対するデータは互いに独立ではない
ブランド認知問題
あるアンケート調査で、ブランドAを知っているか否か(認知、非認知)と、ブランドBを知っているか否かという2つの質問に対する回答を集計した
table: 表12-4 2つのブランドの認知のクロス表(人数)
B認知 B非認知 計
A認知 70 30 100
A非認知 28 72 100
計 98 102 200
2つの回答における認知の関係を分析せよ
table: 表12-5 対応ある2×2のクロス表
B_1 B_2 計
A_1 x_{11} x_{12} x_{1.}
A_2 x_{21} x_{22} x_{2.}
計 x_{.1} x_{.2} n
$ x_{ij}は変数$ Aのカテゴリが$ iで、かつ変数$ Bのカテゴリが$ jの観測度数である 先の例では$ x_{12}=30であり、ブランドAを知っていてブランドBを知らない人である
$ x_{.j}は変数Bのカテゴリが$ jの観測度数である
たとえば$ x_{.2}=102であり、ブランドBを知らない人数
$ x_{i.}は変数Aのカテゴリが$ iの観測度数
たとえば$ x_{1.}=100であり、ブランドAを知っている人数
同時度数と周辺度数の性質
$ x_{.j} = x_{1j} + x_{2j}, \quad x_{i.} = x_{i1} + x_{i2}, \qquad (12.14)
$ n = x_{1.} + x_{2.} = x_{.1} + x_{.2} = x_{11} + x_{21} + x_{12} + x_{22} \qquad (12.15)
table: 表12-6 出現確率の母比率
B_1 B_2 計
A_1 p_{11} p_{12} p_{1.}
A_2 p_{21} p_{22} p_{2.}
計 p_{.1} p_{.2} 1.0
table: 表12-7 2つのブランドの認知の標本比率
B認知 B非認知 計
A認知 0.35 0.15 0.50
A非認知 0.14 0.36 0.50
計 0.49 0.51 1.00
$ p_{ij}は変数$ Aのカテゴリが$ iで、かつ変数$ Bのカテゴリが$ jの母比率
たとえば先のデータで$ p_{12}は、ブランドAのを知っていると回答し、ブランドBを知らないと回答する母比率
これに対する標本比率は$ 0.15(=30/200)
$ p_{.j}は、変数$ Bのカテゴリが$ jである母比率
たとえば$ p_{.2}はブランドBを知らないと回答する母比率
これに対する標本比率は$ 0.51(=102/200)
$ p_{i.}は、変数$ A のカテゴリが$ iの母比率
たとえば$ p_{1.}はブランドAを知っていると回答する母比率
これに対する標本比率は$ 0.50(=100/200)
同時確率と周辺確率の性質
$ p_{.j} = p_{1j} + p_{2j}, \quad p_{i.} = p_{i1} + p_{i2}, \qquad (12.16)
$ 1.0 = p_{1.} + p_{2.} = p_{.1} + p_{.2} = p_{11} + p_{21} + p_{12} + p_{22} \qquad (12.17)
データ$ \bm x = (x_{11}, x_{12}, x_{21}, x_{22}), 母数$ \bm p = (p_{11}, p_{12}, p_{21}, p_{22})の尤度は、以下の多項分布で表現できる
$ f(\bm x|\bm p) = f(x_{11}, x_{12}, x_{21}, x_{22}|p_{11}, p_{12}, p_{21}, p_{22}) \qquad (12.18)
事前分布としては、確率の定義域に対する一様分布を利用する
ただし(12.6)式の制約(直接的には(12.17)式の最左辺と最右辺の制約)を反映させる必要がある
まず$ p_{ij}の仮の母数$ \ddot p_{ij}の事前分布を
$ \ddot p_{ij} \sim U(0, 1) \qquad (12.19)
とし、
$ p_{ij} = \frac{\ddot p_{ij}}{\ddot p_{11} + \ddot p_{12} + \ddot p_{21} + \ddot p_{22}} \qquad (12.20)
のように和が$ 1となる母数$ \bm p = (p_{11}, p_{12}, p_{21}, p_{22})を構成する
一様分布は定数だから
$ f(\bm p) = f(\ddot p_{11}, \ddot p_{12}, \ddot p_{21}, \ddot p_{22}) = f(\ddot p_{11}) \times f(\ddot p_{12}) \times f(\ddot p_{21}) \times f(\ddot p_{22}) \qquad (12.21)
であり、(2.15)式に相当する事後分布を
$ f(\bm p|\bm x) \propto f(\bm x|\bm p)f(\bm p) \qquad (12.22)
と導き、母数の事後分布と予測分布をMCMCで近似する
table: 表12-8 「ブランド認知問題2」の母数の事後分布
EAP post.sd 2.5% 5% 50% 95% 97.5%
p_{11} 0.348 0.033 0.284 0.294 0.348 0.404 0.415
p_{12} 0.152 0.025 0.106 0.113 0.151 0.195 0.204
p_{21} 0.142 0.024 0.098 0.104 0.141 0.184 0.193
p_{22} 0.358 0.034 0.294 0.303 0.357 0.414 0.425
12.3.1. 独立と連関
変数$ Aのカテゴリ$ A_iと変数$ Bのカテゴリ$ B_jが独立である状態を以下のように定義する
$ f(B_j) = f(B_j|A_i) \qquad (12.23)
この定義の意味は$ A_iによって条件づけられても、($ A_iが観測されても)、$ B_jの分布は変わらないということ
条件付き確率は$ f(B_j|A_i) = f(B_j, A_i)/f(A_i)であるから(12.23)式は
$ f(A_i, B_j) = f(A_i)f(B_j) \qquad (12.24)
である
なお、(12.24)式は次式に変換できるから、(12.23)式が成り立てば(12.25)式も成り立つ
$ f(A_i) = f(A_i|B_j) \qquad (12.25)
これを本章の表記に直すと
$ p_{ij} = p_{i.}p_{.j} \qquad (12.26)
となる。$ A_iと$ B_jが独立ならば「同時確率が周辺確率の積で表現される」と言い換えることができる
それに対して
$ p_{ij} \neq p_{i.}p_{.j} \qquad (12.27)
であるとき、$ A_iと$ B_jは連関しているという すべての$ i, jの組に関して(12.26)式が成り立っているとき2つの変数は独立であるという 少なくとも1つの$ i, jの組に関して(12.27)式が成り立っているとき2つの変数は連関しているという 表12-7を観察すると、ブランドBを知っている人は49%であり、ほぼ半分
しかしブランドAのを知っている人に限定すると、ブランドBの(認知:非認知)は($ 0.35:0.15)である
70%もの人がブランドBを知っている
つまりブランドAを知っている人は、ブランドBも知っている傾向があると解釈できる
table: 表12-9 独立なクロス表
B認知 B非認知 計
A認知 49 51 100
A非認知 49 51 100
計 98 102 200
table: 表12-10 独立なクロス表の確率
B認知 B非認知 計
A認知 0.245 0.255 0.5
A非認知 0.245 0.255 0.5
計 0.49 0.51 1.0
データ数、周辺度数、周辺確率は表12-7と同じ
ブランドBを知っている人は49%であり、ほぼ半分
しかし今度はブランドAを知っている人に限定しても、ブランドBを知っている人は49%
つまり、ブランドAの認知はブランドBの認知に影響しない
独立
(12.26)式は以下のように確認できる
$ 0.245 = 0.49 \times 0.500 \qquad (12.28)
$ 0.255 = 0.51 \times 0.500 \qquad (12.29)
12.3.2. ピアソン残差・クラメルの連関計数
$ e_{ij} - \frac{p_{ij} - p_{i.}p_{,j}}{\sqrt{p_{i.}p_{.j}}} \qquad (12.30)
(12.26)式から明らかなように、ピアソン残差は独立のときに$ 0となる
ピアソン残差が正のセルは独立な場合より高い比率で観察され、負のセルは独立な場合より低い比率で観察される
また絶対値が大きくなるとその傾向が強くなると解釈する
$ V = \sqrt{e_{11}^2 + e_{12}^2 + e_{21}^2 + e_{22}^2} \qquad (12.31)
$ Vは$ 0から$ 1までの値を取とり、値が小さいほど独立(非連関)の程度が高く、値が大きいほど連関(非独立)の程度が高いと解釈する
周辺確率、ピアソン残差、クラメルの連関計数の事後分布は生成量
$ p_{.j}^{(t)} = p_{1j}^{(t)} + p_{2j}^{(t)}, \quad p_{i.}^{(t)} = p_{i1}^{(t)} + p_{i2}^{(t)} \qquad (12.32)
$ e_{ij}^{(t)} = \frac{p_{ij}^{(t)} - p_{i.}^{(t)}p_{.j}^{(t)}}{\sqrt{p_{i.}^{(t)}p_{.j}^{(t)}}} \qquad (12.33)
$ V^{(t)} = \sqrt{e_{11}^{2(t)} + e_{12}^{2(t)} + e_{21}^{2(t)} + e_{22}^{2(t)}} \qquad (12.34)
によって近似する
https://gyazo.com/1bd923b889b358af88c56a3062c5fa3b
下段のピアソン残差のEAPはほぼ$ 0
それに対して上段のピアソン残差はすべて$ 0から離れて分布している
$ e_{11}と$ e_{22}は正の領域で分布している
ブランドAを知っている人はブランドBも知っている確率が高く、ブランドAを知らない人はブランドBも知らない確率が高いということである
独立だからといってクラメルの連関計数は$ 0になるわけではない
12.4. 対応あるa×bのクロス表の推測
パスタ問題
「パスタ」に対してどんな「トッピング」を選んだのかを集計した
table: 表12-12 パスタに選ばれたトッピング
バジル トリュフ なし 計
トマトの冷製 19 9 6 34
カルボナーラ 10 19 5 34
ペペロンチーノ 15 14 18 47
計 44 42 29 115
https://gyazo.com/862fe465c62343aae6b8ffc757d2a595
パスタ問題では$ a = 3, b = 3となる
同時度数と周辺度数の性質
$ x_{.j} = x_{1j} \cdots + x_{aj}, \quad x_{i.} = x_{i1} + \cdots + x_{ib}, \qquad (12.35)
$ n = x_{1.} + \cdots + x_{a.} = x_{.1} + \cdots + x_{.b} \qquad (12.36)
同時確率と周辺確率の性質
$ p_{.j} = p_{1j} \cdots + p_{aj}, \quad p_{i.} = p_{i1} + \cdots + p_{ib}, \qquad (12.37)
$ 1.0 = p_{1.} + \cdots + p_{a.} = p_{.1} + \cdots + p_{.b} \qquad (12.38)
表12-13と表12−14の2つの添字のついた$ x_{ij}と$ p_{ij}をすべて拾い出し、データと母数をそれぞれ
$ \bm x = (x_{11} \cdots x_{1j} \cdots x_{1b} \cdots x_{i1} \cdots x_{ij} \cdots x_{ib} \cdots x_{a1} \cdots x_{aj} \cdots x_{ab}) \qquad (12.39)
$ \bm p = (p_{11} \cdots p_{1j} \cdots p_{1b} \cdots p_{i1} \cdots p_{ij} \cdots p_{ib} \cdots p_{a1} \cdots p_{aj} \cdots p_{ab}) \qquad (12.40)
と表記したとき、母数の尤度は多項分布
$ f(\bm x|\bm p) \qquad (12.41)
で表現される
事前分布としては、確率の定義域に対する一様分布を利用する
$ \bm pの要素の総和を$ 1に成約する必要がある
まず$ p_{ij} の仮の母数$ \ddot p_{ij} の事前分布を区間$ [0, 1] の一様分布とし
$ p_{ij} = \frac{\ddot p_{ij}}{\ddot p_{11} + \cdots + \ddot p_{1j} \cdots\cdots + \ddot p_{ij} \cdots\cdots + \ddot p_{aj} + \cdots + \ddot p_{ab}} \qquad (12.42)
のように和が$ 1となる母数$ \bm pを構成する
一様分布は定数だから同時事前分布$ f(\bm p)は$ a \times b個の一様分布$ f(\ddot p_{ij})の総積であり、(2.15)式に相当する事後分布は
$ f(\bm p|\bm x) \propto f(\bm x|\bm p)f(\bm p) \qquad (12.43)
と導かれる
https://gyazo.com/8c9c2a666c18bb649b5b01c90801031d
https://gyazo.com/d7974b4e6b83d2c9f6928bb674a1cdee
ただし$ a \times bのクロス表のカラメル連関計数は以下で計算する
$ V = \sqrt{\frac{e_{11}^2 + \cdots + e_{1j}^2 + \cdots e_{1b}^2 + \cdots + e_{a1}^2 + \cdots e_{aj}^2 + \cdots + e_{ab}^2}{min(a,b)-1}} \qquad (12.44)
分子はすべての$ e_{ij}^2の和であり、分母は$ aか$ bの小さい方から1を減じた値
この場合は$ a=b=3であるから$ 2で割る
クラメルの連関計数が$ 0と$ 1の間に収まり、サイズの異なるクロス表の連関程度が比較できるようにするための工夫が分母の$ min(a,b)-1
先述した2×2のクロス表の場合は$ 1で割るので省略した
「トッピング」の周辺確率
「バジル」$ 0.379(0.044)[0.296, 0.467]
「トリュフ」$ 0.363(0.043)[0.281, 0.450]
「なし」$ 0.258(0.039)[0.185, 0.339]
「バジル」「トリュフ」「なし」の順に選ばれている
周辺確率からペペロンチーノがもっとも注文されていることがわかる
表12-17にピアソン残差が正である確率(上)と負である確率(下)を示した
https://gyazo.com/cde45e362a21552155eafd083dab982c
$ 0.9以上のセルを太字で示している
傾向
「トマトの冷製」の客は「バジル」を選び、「トリュフ」は避ける
「カルボナーラ」の客は「トリュフ」を選び「なし」は避ける
「ペペロンチーノ」の客はトッピングを選ばない
12.4.1. 連言命題が正しい確率
表12−17の確率は、2つのカテゴリの大小比較の確率としては、そのまま解釈可能
ただし複数の比較が同時に成り立つ確率とは異なる
研究上の問い「『トマトの冷製』の客は『バジル』を選び『トリュフ』は避けること、『カルボナーラ』の客は『トリュフ』を選び『なし』は避けること、『ペペロンチーノ』の客はトッピングを選ばない」が同時に正しい確率
このRQ.が真のときには$ 1を、偽のときには$ 0をとる生成量
$ u_{e_{11}>0}^{(t)} \times u_{e_{22}>0}^{(t)} \times u_{e_{33}>0}^{(t)} u_{e_{12}<0}^{(t)} \times u_{e_{23}<0}^{(t)} \qquad (12.45)
のEAPが求めたい確率となる
確率は$ 0.879となった
この確率は積を計算する前の生成量のEAPの最小値$ 0.927を上回らない
条件を緩めて、研究上の問い「『トマトの冷製』の客は『バジル』を選び、『カルボナーラ』の客は『トリュフ』を選び、『ペペロンチーノ』の客はトッピングを選ばない」が同時に正しい確率を求める
このRQ.が真のときには$ 1を、偽のときには$ 0をとる生成量
$ u_{e_{11}>0}^{(t)} \times u_{e_{22}>0}^{(t)} \times u_{e_{33}>0}^{(t)} \qquad (12.46)
のEAPが求めたい確率となる
確率は$ 0.983になった
放送授業
標準偏差や相関係数や比率は、事前分布を一様分布とすると、標本統計値と伝統的な最尤推定値とMAP推定値の3つが一致する
post.sdは、MAPやMEDではなく、EAPの精度を示している
点として最頻値を計算するのは、初学者には難しい
EAPは初学者向きである。学習の進度に応じて好きな推定量を使用してよい